Attention Is All You Need (2017)
The dominant sequence transduction models are based on complex recurrent or convolutional neural networks in an encoder-decoder configuration.
The best performing models also connect the encoder and decoder through an attention mechanism.
We propose a new simple network architecture, the Transformer, based solely on attention mechanisms, dispensing with recurrence and convolutions entirely. CNNやRNNを使わずAttentionで構築した方が計算量が少なく、翻訳精度が高く、しかも並列計算しやすい これまでの言語翻訳系AIの多くでも,Attentionの概念は導入されていた
入力した翻訳対象文章における各単語のAttention評価値を求めるのに,膨大で多様な文章事例から学習して求めた学習データを参照するアプローチを採用していたのだ。
これに対して当該論文では,翻訳対象の文章に含まれる単語だけに着目したAttention評価値を求める方針(Self-Attention,自己注意)の深層学習だけで,必要十分な精度の翻訳結果が得られることを示したのである。 この論文は,言語翻訳系AIに大きなブレークスルーをもたらした
Transformerモデルは,自然言語処理以外にも応用されるようになり,NVIDIAによると,直近2年のAI系論文の70%がTransformerモデルに関するものになったという 論文を読む
2017年に、グーグルのAI研究所の幹部らは「Attention Is All You Need」というAIに関する画期的な論文を書き、トランスフォーマーと呼ばれるテキスト解析のための新しいアーキテクチャを提案していた。この仕組みは、ChatGPTのようなジェネレーティブAIや、グーグル独自の大規模言語モデル「LaMDA」の基礎となった。
しかし現在は、この論文の共著者8人のうち、1人を除いて全員がグーグルを退社している。6人は自分の会社を設立し、1人はOpenAIに参加した。論文の著者の1人で、OpenAI のライバル企業とされる「Cohere」のCEOであるエイダン・ゴメスは「グーグルの環境は自分には過酷すぎた」と語った。 「グーグルのような巨大企業の内部では自由に研究ができない。根本的な企業構造がそれをサポートしていない。だから、外に出て自分でやるしかないんだ」と彼はフォーブスに語った。